Image super-resolution is a common task on mobile and IoT devices, where one often needs to upscale and enhance low-resolution images and video frames. While numerous solutions have been proposed for this problem in the past, they are usually not compatible with low-power mobile NPUs having many computational and memory constraints. In this Mobile AI challenge, we address this problem and propose the participants to design an efficient quantized image super-resolution solution that can demonstrate a real-time performance on mobile NPUs. The participants were provided with the DIV2K dataset and trained INT8 models to do a high-quality 3X image upscaling. The runtime of all models was evaluated on the Synaptics VS680 Smart Home board with a dedicated edge NPU capable of accelerating quantized neural networks. All proposed solutions are fully compatible with the above NPU, demonstrating an up to 60 FPS rate when reconstructing Full HD resolution images. A detailed description of all models developed in the challenge is provided in this paper.
translated by 谷歌翻译
Various depth estimation models are now widely used on many mobile and IoT devices for image segmentation, bokeh effect rendering, object tracking and many other mobile tasks. Thus, it is very crucial to have efficient and accurate depth estimation models that can run fast on low-power mobile chipsets. In this Mobile AI challenge, the target was to develop deep learning-based single image depth estimation solutions that can show a real-time performance on IoT platforms and smartphones. For this, the participants used a large-scale RGB-to-depth dataset that was collected with the ZED stereo camera capable to generated depth maps for objects located at up to 50 meters. The runtime of all models was evaluated on the Raspberry Pi 4 platform, where the developed solutions were able to generate VGA resolution depth maps at up to 27 FPS while achieving high fidelity results. All models developed in the challenge are also compatible with any Android or Linux-based mobile devices, their detailed description is provided in this paper.
translated by 谷歌翻译
As large language models (LLMs) grow larger and more sophisticated, assessing their "reasoning" capabilities in natural language grows more challenging. Recent question answering (QA) benchmarks that attempt to assess reasoning are often limited by a narrow scope of covered situations and subject matters. We introduce WikiWhy, a QA dataset built around a novel auxiliary task: explaining why an answer is true in natural language. WikiWhy contains over 9,000 "why" question-answer-rationale triples, grounded on Wikipedia facts across a diverse set of topics. Each rationale is a set of supporting statements connecting the question to the answer. WikiWhy serves as a benchmark for the reasoning capabilities of LLMs because it demands rigorous explicit rationales for each answer to demonstrate the acquisition of implicit commonsense knowledge, which is unlikely to be easily memorized. GPT-3 baselines achieve only 38.7% human-evaluated correctness in the end-to-end answer & explain condition, leaving significant room for future improvements.
translated by 谷歌翻译
视觉导航要求代理商遵循自然语言说明以达到特定目标。可见的环境和看不见的环境之间的巨大差异使代理商概括良好的挑战。先前的研究提出了数据增强方法,以明确或隐式地减轻数据偏见并提供概括的改进。但是,他们试图记住增强的轨迹,并在测试时忽略在看不见的环境下的分布变化。在本文中,我们提出了一个看不见的差异,预期视力和语言导航(戴维斯),该差异通过鼓励测试时间的视觉一致性来概括为看不见的环境。具体来说,我们设计了:1)半监督框架戴维斯(Davis),该框架利用类似的语义观测来利用视觉一致性信号。 2)一个两阶段的学习程序,鼓励适应测试时间分布。该框架增强了模仿和强化学习的基本混合物与动量形成对比,以鼓励在联合训练阶段和测试时间适应阶段对类似观察的稳定决策。广泛的实验表明,戴维斯在R2R和RXR基准上实现了与先前最先进的VLN基线相比,取得了模型不合命源性的改进。我们的源代码和数据是补充材料。
translated by 谷歌翻译
凝视估计是一种确定一个人在何处看着该人的脸的方法,是理解人类意图的宝贵线索。与其他计算机视觉领域类似,深度学习(DL)方法在凝视估计域中获得了认可。但是,凝视估计域中仍然存在凝视校准问题,从而阻止了现有方法进一步改善性能。一个有效的解决方案是直接预测两只人眼的差异信息,例如差异网络(DIFF-NN)。但是,此解决方案仅使用一个推理图像时会导致准确性丧失。我们提出了一个差异残差模型(DRNET)与新的损失函数相结合,以利用两个眼睛图像的差异信息。我们将差异信息视为辅助信息。我们主要使用两个公共数据集(1)mpiigaze和(2)Eyediap评估了提出的模型(DRNET)。仅考虑眼睛功能,DRNET分别使用Mpiigigaze和EyeDiap数据集以$ Angular-Error $为4.57和6.14的最先进的目光估计方法。此外,实验结果还表明,DRNET对噪声图像非常强大。
translated by 谷歌翻译
面部表达识别(FER)遭受由含糊不清的面部图像和注释者的主观性引起的数据不确定性,导致了文化语义和特征协变量转移问题。现有作品通常通过估计噪声分布或通过从干净的数据中学到的知识引导网络培训来纠正标签错误的数据,从而忽略了表达式的关联关系。在这项工作中,我们提出了一种基于自适应的特征归一化(AGFN)方法,以通过将特征分布与表达式结合标准化,以保护FER模型免受数据不确定性。具体而言,我们提出了一个泊松图生成器,以通过采样过程在每个迷你批次中自适应地构造样品的拓扑图,并相应地设计了坐标下降策略来优化提出的网络。我们的方法优于最先进的方法,在基准数据集Ferplus和RAF-DB上,精度为91.84%和91.11%,当错误标记的数据的百分比增加(例如20%)时,我们的网络超越了。现有的工作量显着占3.38%和4.52%。
translated by 谷歌翻译
平均老师(MT)方案在半监督对象检测(SSOD)中被广泛采用。在MT中,通过手工制作的标签分配,采用了由教师的最终预测(例如,在无最大抑制(NMS)后处理之后)提供的稀疏伪标签(例如,在无最大抑制(NMS)后处理)。但是,稀疏到密集的范式使SSOD的管道复杂化,同时忽略了强大的直接,密集的教师监督。在本文中,我们试图直接利用教师的密集指导来监督学生培训,即密集至密集的范式。具体而言,我们建议逆NMS聚类(INC)和等级匹配(RM),以实例化密集的监督,而无需广泛使用的常规稀疏伪标签。 Inc带领学生像老师一样将候选箱子分组为NMS中的群集,这是通过学习在NMS过程中揭示的分组信息来实现的。在通过Inc获得了与教师相同的分组计划后,学生通过排名匹配进一步模仿了教师与聚类候选人的排名分配。借助拟议的Inc和RM,我们将密集的教师指导集成到半监督的对象检测(称为DTG-SSOD)中,成功地放弃了稀疏的伪标签,并在未标记的数据上提供了更有信息的学习。在可可基准上,我们的DTG-SSOD在各种标签率下实现了最先进的性能。例如,在10%的标签率下,DTG-SSOD将监督的基线从26.9提高到35.9地图,使以前的最佳方法软教师的表现优于1.9分。
translated by 谷歌翻译
语言规划旨在通过分解为更简单的低级步骤来实现复杂的高级目标。这种程序推理能力对于诸如家用机器人和虚拟助手等应用至关重要。尽管语言规划是日常生活中人类的基本技能,但对于缺乏现实世界中缺乏深层常识性知识的大型语言模型(LLM)来说,这仍然是一个挑战。以前的方法需要手动示例或带注释的程序才能从LLM中获取此类能力。相比之下,本文提出了神经符号的因果语言规划师(CLAP),该策划者通过注入常识的提示从LLM中引起了程序知识。 LLMS中的预训练知识本质上是一种未观察到的混杂因素,它在任务和行动计划之间引起虚假的相关性。通过结构性因果模型(SCM)的镜头,我们提出了一个有效的策略,以构建提示作为对SCM的因果干预。我们的策略使用图形采样技术和符号程序执行者,正式从常识知识基础上形成结构化因果提示。拍手在Wikihow和机器人上获得最新的表现,在反事实环境下,人类评估的相对提高了5.28%。这表明在语义和顺序的因果语言规划中拍手的优势。
translated by 谷歌翻译
在本文中,我们在半监督对象检测(SSOD)中深入研究了两种关键技术,即伪标记和一致性训练。我们观察到,目前,这两种技术忽略了对象检测的一些重要特性,从而阻碍了对未标记数据的有效学习。具体而言,对于伪标记,现有作品仅关注分类得分,但不能保证伪框的本地化精度;为了保持一致性训练,广泛采用的随机训练只考虑了标签级的一致性,但错过了功能级别的训练,这在确保尺度不变性方面也起着重要作用。为了解决嘈杂的伪箱所产生的问题,我们设计了包括预测引导的标签分配(PLA)和正面验证一致性投票(PCV)的嘈杂伪盒学习(NPL)。 PLA依赖于模型预测来分配标签,并使甚至粗糙的伪框都具有鲁棒性。 PCV利用积极建议的回归一致性来反映伪盒的本地化质量。此外,在一致性训练中,我们提出了包括标签和特征水平一致性的机制的多视图尺度不变学习(MSL),其中通过将两个图像之间的移动特征金字塔对准具有相同内容但变化量表的变化来实现特征一致性。在可可基准测试上,我们的方法称为伪标签和一致性训练(PSECO),分别以2.0、1.8、2.0分的1%,5%和10%的标签比优于SOTA(软教师)。它还显着提高了SSOD的学习效率,例如,PSECO将SOTA方法的训练时间减半,但实现了更好的性能。代码可从https://github.com/ligang-cs/pseco获得。
translated by 谷歌翻译
神经辐射场(NERF)为3D互动体验带来了新的浪潮。但是,作为沉浸式体验的重要组成部分,在NERF中尚未完全探索散焦效应。最近一些基于NERF的方法通过利用多平台技术以后处理方式产生3D散焦效果。尽管如此,它们还是耗时的,或者是记忆力消费。本文提出了一种新型的基于薄镜的NERF框架,该框架可以直接呈现出各种3D散焦效应,称为nerfocus。与针孔不同,薄镜头折射了场景点的光线,因此其在传感器平面上的成像被散布为混乱圆(COC)。直接的解决方案采样足够的射线以近似此过程在计算上很昂贵。取而代之的是,我们建议将薄镜头成像倒数,以明确对传感器平面上每个点的光束路径进行建模,并将此范式推广到每个像素的梁路径,然后使用基于flustum的体积渲染以渲染每个像素的梁路径。我们进一步设计了有效的概率培训(P-Training)策略,以大大简化培训过程。广泛的实验表明,我们的nerfocus可以通过可调节的相机姿势,聚焦距离和光圈大小实现各种3D散焦效应。通过将孔径大小设置为零,可以将现有的NERF视为我们的特殊情况。尽管有这样的优点,但Nerfocus并未牺牲Nerf的原始表现(例如培训和推理时间,参数消耗,渲染质量),这意味着其具有更广泛应用和进一步改进的巨大潜力。代码和视频可在https://github.com/wyhuai/nerfocus上找到。
translated by 谷歌翻译